热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

企业数据应用挑战及元数据管理的重要性

本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了第六篇:元数据管理之“灵魂”三问相关的知识,希望对你有一定的参考价值。


元数据管理作为企业数据治理的基础工作,贯穿数据产生、加工和使用的全生命周期,是有效管理和使用数据的基础和前提,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。本文从企业数据应用挑战出发,针对元数据管理发起“灵魂”三问——元数据是什么,有什么用,又该怎么管?

01 企业数据应用挑战

企业在日常经营管理过程中会产生大量的数据,为数据驱动的企业经营管理决策奠定了良好基础,但真正在数据应用时却往往会陷入数据沼泽中,出现数据找不到、读不懂、不可信等问题。

数据找不到。数据分散在不同IT系统和线下文档中,因为缺乏高效的数据搜索工具,业务不知道需要的数据在哪里。

数据读不懂。面对复杂的数据存储结构,因为缺乏对每个数据表、字段的业务含义注释,业务读不懂IT系统中的数据。

数据不可信。数据从产生到消费链路复杂,因为缺乏对数据的全链路追踪,不知道数据来自哪里,都经过了哪些加工,业务无法追溯数据问题。

以上问题主要原因是业务与IT以及业务与业务之间缺乏统一的语言,以及基于统一数据语言的数据搜索和数据追溯能力,即企业统一元数据管理能力。

02 元数据是什么?

何为元数据?

元数据最常见的定义是“关于数据的数据”,非常简单却也不容易理解(哈哈,只能说懂的都懂),所以简单举个栗子:

元数据就是数据的字典或者说明书,比如公司个人档案管理系统数据库中的“180”这一数值单独看我们并不知道是什么意思,但是如果我们赋予了它所属对象“张三”,描述内容“身高”,计量单位“厘米”等信息之后,我们就明白这条数值代表的含义是“张三身高180cm”,则所属对象“张三”,描述内容“身高”,计量单位“厘米”就是180的元数据信息。

元数据分类

元数据贯穿数据流动的全过程,主要包括数据源元数据、数据加工处理过程元数据、大数据平台元数据、应用服务层元数据等。根据元数据用途及针对使用角色的不同,通常我们把元数据分为3大类:业务元数据、技术元数据和操作元数据(注:根据DAMA正宗元数据分类没有管理元数据一说)。

业务元数据主要是对数据中业务语义的描述,包括业务规则、业务术语、统计口径、信息分类等,是用户访问数据时了解业务含义的途径。

技术元数据主要用来描述数据的技术细节和处理规则,包括比如库表结构、ETL规则等,是技术人员进行数据开发时使用的数据信息。

操作元数据主要描述了数据处理和访问的细节,包括访问记录、调度异常处理等。

03 元数据有什么用?

地图指引,自助使用

通过元数据采集对企业数据资源进行全面梳理,实现企业隐性数据显性化,并提供良好的元数据查询管理视图,降低“找数据”的沟通成本,可使业务人员独立准确地定位和使用数据。

统一语言,高效沟通

通过元数据管理统一数据业务和技术语言,可以有效帮助技术人员和业务人员管理和使用数据,消除数据歧义,提升工作效率。

追根溯源,精准定位

通过元数据血缘分析,快速定位数据来源和加工处理过程。当在数据分析中发现问题数据的时候,可以依赖血缘关系,追根溯源,帮助数据分析人员精准定位数据问题,减少分析的时间和难度。

流向追踪,迅速响应

通过元数据影响分析可以对数据流向进行追踪,当对系统进行升级改造时可以分析依赖数据的影响性分析,可以快速定位出元数据修改会影响到哪些下游系统,并及时进行相应调整,避免问题的发生。

04 元数据管理平台建设

元数据管理通过对各类数据资源元数据信息的自动、手动采集,进行元数据信息的统一维护管理,并支持对元数据的查询以及相关血缘分析、影响分析和数据地图等元数据分析能力,同时通过统一的元数据访问接口进行元数据访问控制,从而更加高效、便捷的使用数据资产。

元数据获取

元数据获取是指从数据平台、业务数据库、报表工具等采集和解析数据源元数据、数据处理加工过程元数据、数据仓库元数据、数据应用层元数据的过程,包括自动获取和手工获取两种方式。其中,自动获取提供多种数据源的采集适配器,根据定时调度任务对元数据信息进行定时采集,手动获取是对自动获取元数据的补充。

同时,元数据采集管理对采集器状态、数据源参数、采集任务进行配置和维护,并提供针对采集任务的监控告警能力,及时跟踪采集任务执行情况。

元数据存储

元数据存储层定义了元数据存储所遵循的元模型,规范从获取层得到的各类元数据的属性要求和存储格式要求,包括业务元数据、技术元数据和操作元数据。为支持各种元数据,以及元数据之间关系的存储,元数据存储需要灵活、可扩展的架构支撑,另外,能够实时更新存储也是很重要的一点。

元数据变更管理

通过元数据变更管理能掌握元数据的变更历史轨迹,实现对元数据变更有效监控,当上游系统的数据模型发生变更时,给下游系统提供预警,实现对变更的协同处理,有效降低运维风险。

元数据版本管理

可以对元数据的关键变更进行版本发布,当系统检测到元数据发生变更后,用户可以在当前元数据的基础上再发布一个版本,实现关键元数据变更的管理。

元数据维护

提供对元数据的增加、删除和修改等基本操作,并维护业务元数据分类、业务标签等业务元数据信息,同时建立业务标签与技术元数据的关联,实现业务元数据与技术元数据的统一管理。

元数据查询

元数据查询是指对元数据库中的元数据基本信息进行查询的功能,元数据管理平台提供树形方式来统一展示元数据信息,层级结构清晰,用户可以直接通过目录树进行元数据信息检索,同时提供自定义检索条件进行查询。

元模型管理

元模型管理需符合 MOF 规范,支持XMI格式的元模型导入和导出,内置各类常见元模型,并支持用户自定义扩展,以满足客户化元数据的需求。元模型管理对元模型的基本信息、属性、父子关系、依赖关系、组合关系的增删改查操作,同时通过元模型发布功能,将元模型的设计和运用隔离开,元模型只有在发布之后才会生效,使用户在设计完成发布之前,不会影响到元数据的使用。

数据地图

对数据的流转分布关系进行可视化展现,通过不同层次的图形展现粒度控制,满足业务使用、数据管理、开发运维不同应用场景的图形查询和辅助分析需求。

数据血缘分析

血缘分析是建立在元数据整合的基础上,记录数据治理过程中的血缘关系,基于这些血缘关系信息,可以往回追溯其数据处理过程,并通过图形化的方式展示数据从哪里来,经历了哪些加工。数据血缘分析可以提高数据应用的可信度,为数据质量问题的追溯提供了技术上的保障。

关联度分析

关联度分析从关系数量的角度对指定数据进行分析,明确该数据和其它数据的关系,以及它们的关系是怎样建立的。关联度分析体现该数据在系统中依赖程度的高低,从一定的角度可以反映出该数据的重要程度。

影响分析

影响分析帮助用户迅速了解分析对象的下游数据信息,快速掌握元数据变更可能造成的影响,以便更有效的评估变化该元数据带来的风险,从而帮助用户高效准确的对数据资产进行清理、维护与使用。

元数据对比分析

可以对同类型元数据之间属性值的差异进行对比分析,方便用户识别相似元数据之间的存在的微小差距。

冷热度分析

对数据的使用情况进行分析,明确哪些数据是企业常用数据,哪些数据属于僵死数据,让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰地看到数据的活跃程度,以便他们更好地驾驭数据,处置或激活僵死数据。

统一元数据接口服务

建立元数据查询、访问、分析的统一接口规范,通过统一元数据服务接口对外提供元数据服务。

05 元数据管理实施过程

元数据管理的实施步骤分为以下四个阶段:

规划设计阶段

在规划设计阶段主要是对企业元数据管理驱动力、存在的问题达成内部共识,制定企业元数据管理目标、架构和实施规划。

业务分析阶段

通过收集企业元数据管理需求,明确元数据管理环境、元数据管理范围和优先级,建立元数据标准,制定相关元模型。

实施交付阶段

搭建元数据管理平台,从业务系统、数据平台等数据源获取元数据,对元数据进行转换写入到元数据存储库中,并将元数据存储库中的元数据通过统一元数据服务接口分发到最终用户和其它需要使用元数据的应用或工具中。

运维管理阶段

对元数据的日常运维管理是保证元数据持续优化的基础,因此需要建立元数据管理相关组织、制度、流程,对元数据的增加、删除、修改等操作进行管理,实现对元数据全生命周期管理,并通过元数据运营分析确保元数据完整、准确。

03 结语

元数据管理是企业数据治理的重要抓手,做好元数据管理就可以解决数据找不到、读不懂、不可信的问题,通过元数据管理可以让数据使用者了解企业都有什么数据,分布在哪里,数据的业务含义、口径、颗粒度,如何获取需要的数据,并在数据使用过程中快速进行问题定位分析,真正实现数据的可见、可懂、可用。

微信公众号“金子说数据”后台回复“元数据管理”获取更多元数据管理相关详细学习资料!

金子说数据

聊聊数据技术,谈谈数据业务

7篇原创内容

公众号


推荐阅读
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 探索如何使用公共数据集为您的编程项目提供动力。无论您是编程新手还是有经验的开发者,本文将为您提供实用建议和资源,帮助您启动并运行一个创新的数据驱动型项目。 ... [详细]
  • 云计算的优势与应用场景
    本文详细探讨了云计算为企业和个人带来的多种优势,包括成本节约、安全性提升、灵活性增强等。同时介绍了云计算的五大核心特点,并结合实际案例进行分析。 ... [详细]
  • PHP 编程疑难解析与知识点汇总
    本文详细解答了 PHP 编程中的常见问题,并提供了丰富的代码示例和解决方案,帮助开发者更好地理解和应用 PHP 知识。 ... [详细]
  • 国内BI工具迎战国际巨头Tableau,稳步崛起
    尽管商业智能(BI)工具在中国的普及程度尚不及国际市场,但近年来,随着本土企业的持续创新和市场推广,国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争,国内BI工具通过不断优化产品和技术,赢得了越来越多用户的认可。 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 利用存储过程构建年度日历表的详细指南
    本文将介绍如何使用SQL存储过程创建一个完整的年度日历表。通过实例演示,帮助读者掌握存储过程的应用技巧,并提供详细的代码解析和执行步骤。 ... [详细]
  • 本章将深入探讨移动 UI 设计的核心原则,帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧,您将能够创建出既美观又实用的移动应用。 ... [详细]
  • 本文详细解析了Python中的os和sys模块,介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]
  • 掌握远程执行Linux脚本和命令的技巧
    本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令,帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释,让初学者也能轻松上手。 ... [详细]
  • 深入理解 H5C3 和 JavaScript 核心问题
    本文详细探讨了 H5C3 和 JavaScript 中的一些核心编程问题,通过实例解析和代码示例,帮助开发者更好地理解和应用这些技术。 ... [详细]
  • TCP长连接设备管理平台:架构与功能概览
    本文介绍了基于TCP长连接的设备管理平台的设计理念、技术选型及主要功能模块。最初,项目旨在实现简单的协议测试,但随着需求扩展,逐步演变为一个完整的前后端分离系统。 ... [详细]
  • 深入解析TCP/IP五层协议
    本文详细介绍了TCP/IP五层协议模型,包括物理层、数据链路层、网络层、传输层和应用层。每层的功能及其相互关系将被逐一解释,帮助读者理解互联网通信的原理。此外,还特别讨论了UDP和TCP协议的特点以及三次握手、四次挥手的过程。 ... [详细]
author-avatar
漫天星雨2000
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有